3D手姿势估计方法最近取得了重大进展。但是,对于特定的现实世界应用,估计准确性通常远远不足,因此有很大的改进空间。本文提出了Trihorn-Net,这是一种新型模型,该模型使用特定的创新来提高深度图像的手姿势估计精度。第一个创新是将3D手姿势估计分解为深度图像空间(UV)中2D关节位置的估计,以及其相应深度的估计得到了两个互补注意图的帮助。这种分解可防止深度估计,这是一项更加困难的任务,无法在预测水平和特征级别上干扰紫外线估计。第二个创新是PixDropout,据我们所知,这是第一个基于外观的数据增强方法,用于手动深度图像。实验结果表明,所提出的模型优于三个公共基准数据集上的最新方法。
translated by 谷歌翻译
手语是聋人和听力受损社区中使用的沟通语言的主要形式。在听力障碍和听力社区之间进行简单互相的沟通,建立一个能够将口语翻译成手语的强大系统,反之亦然是基本的。为此,标志语言识别和生产是制作这种双向系统的两个必要零件。手语识别和生产需要应对一些关键挑战。在这项调查中,我们审查了使用深度学习的手语制作(SLP)和相关领域的最近进展。为了有更现实的观点来签署语言,我们介绍了聋人文化,聋人中心,手语的心理视角,口语和手语之间的主要差异。此外,我们介绍了双向手语翻译系统的基本组成部分,讨论了该领域的主要挑战。此外,简要介绍了SLP中的骨干架构和方法,并提出了拟议的SLP分类物。最后,介绍了SLP和绩效评估的一般框架,也讨论了SLP最近的发展,优势和限制,评论可能的未来研究的可能线条。
translated by 谷歌翻译
如今,广泛使用了数字化文件,如科学文章,税务表,发票,合同文件和历史文本。由于各种原因,这些图像可能会劣化或损坏,包括捕获图像时的差的情况,阴影,扫描它们时,噪音和模糊,老化,墨水染色,通过,水印,印模等。文档图像增强和恢复在许多自动文档分析和识别任务中发挥至关重要的作用,例如使用光学字符识别(OCR)的内容提取。随着最近深入学习的进步,提出了许多方法来提高这些文档图像的质量。在本文中,我们审查了基于深入的学习方法,数据集和指标,用于不同的文档图像增强问题。我们提供全面概述六种不同文档图像增强任务的基于深度学习的方法,包括二值化,脱落,去噪,偏差,水印去除和暗影去除。我们总结了每个任务的主要最先进的工作,并讨论其特征,挑战和局限性。我们介绍了多个文件图像增强任务,这些任务不仅仅是注意力,包括在曝光和暴露校正和漏洞中,并识别未来研究的其他一些有前途的研究方向和机会。
translated by 谷歌翻译
虽然许多动作识别技术在公共基准上取得了巨大成功,但是这种性能不一定在现实世界方案中复制,其中数据来自特定的应用要求。我们专注于本文的具体实际应用是使用认知要求苛刻的物理任务的儿童的认知评估。我们创建了一个称为跨你身体和录制数据的系统,这些数据在几个方面是独一无二的,包括故障学家设计的事实,受试者是儿童,并且视频捕获现实世界使用量在心理学家的现实世界评估期间表演任务的儿童。我们系统的其他显着特征是它的分数可以直接翻译,以测量执行功能,这是区分青少年儿童中ADHD发作的关键因素之一。由于不精确的儿童执行的行动的执行以及存在细粒度运动模式的存在,我们系统地研究和评估了记录数据的相关方法。我们的目标是,该系统将有助于推进对儿童认知评估的研究。
translated by 谷歌翻译
Modern speech recognition systems exhibits rapid performance degradation under domain shift. This issue is especially prevalent in data-scarce settings, such as low-resource languages, where diversity of training data is limited. In this work we propose M2DS2, a simple and sample-efficient finetuning strategy for large pretrained speech models, based on mixed source and target domain self-supervision. We find that including source domain self-supervision stabilizes training and avoids mode collapse of the latent representations. For evaluation, we collect HParl, a $120$ hour speech corpus for Greek, consisting of plenary sessions in the Greek Parliament. We merge HParl with two popular Greek corpora to create GREC-MD, a test-bed for multi-domain evaluation of Greek ASR systems. In our experiments we find that, while other Unsupervised Domain Adaptation baselines fail in this resource-constrained environment, M2DS2 yields significant improvements for cross-domain adaptation, even when a only a few hours of in-domain audio are available. When we relax the problem in a weakly supervised setting, we find that independent adaptation for audio using M2DS2 and language using simple LM augmentation techniques is particularly effective, yielding word error rates comparable to the fully supervised baselines.
translated by 谷歌翻译
Iterative regularization is a classic idea in regularization theory, that has recently become popular in machine learning. On the one hand, it allows to design efficient algorithms controlling at the same time numerical and statistical accuracy. On the other hand it allows to shed light on the learning curves observed while training neural networks. In this paper, we focus on iterative regularization in the context of classification. After contrasting this setting with that of regression and inverse problems, we develop an iterative regularization approach based on the use of the hinge loss function. More precisely we consider a diagonal approach for a family of algorithms for which we prove convergence as well as rates of convergence. Our approach compares favorably with other alternatives, as confirmed also in numerical simulations.
translated by 谷歌翻译
Artificial Intelligence (AI) systems have been increasingly used to make decision-making processes faster, more accurate, and more efficient. However, such systems are also at constant risk of being attacked. While the majority of attacks targeting AI-based applications aim to manipulate classifiers or training data and alter the output of an AI model, recently proposed Sponge Attacks against AI models aim to impede the classifier's execution by consuming substantial resources. In this work, we propose \textit{Dual Denial of Decision (DDoD) attacks against collaborative Human-AI teams}. We discuss how such attacks aim to deplete \textit{both computational and human} resources, and significantly impair decision-making capabilities. We describe DDoD on human and computational resources and present potential risk scenarios in a series of exemplary domains.
translated by 谷歌翻译
图像分类的深卷卷神经网络(CNN)依次交替交替进行卷积和下采样操作,例如合并层或陷入困境的卷积,从而导致较低的分辨率特征网络越深。这些降采样操作节省了计算资源,并在下一层提供了一些翻译不变性以及更大的接收领域。但是,这样做的固有副作用是,在网络深端产生的高级特征始终以低分辨率特征图捕获。逆也是如此,因为浅层总是包含小规模的特征。在生物医学图像分析中,工程师通常负责对仅包含有限信息的非常小的图像贴片进行分类。从本质上讲,这些补丁甚至可能不包含对象,而分类取决于图像纹理中未知量表的微妙基础模式的检测。在这些情况下,每一个信息都是有价值的。因此,重要的是要提取最大数量的信息功能。在这些考虑因素的推动下,我们引入了一种新的CNN体​​系结构,该体系结构可通过利用跳过连接以及连续的收缩和特征图的扩展来保留深,中间和浅层层的多尺度特征。使用来自胰腺导管腺癌(PDAC)CT扫描的非常低分辨率斑块的数据集,我们证明我们的网络可以超越最新模型的当前状态。
translated by 谷歌翻译
本文介绍了Hipart软件包,这是一个开源的本机Python库,可提供有效且可解释的分裂分层聚类算法的实现。HIPART支持交互式可视化,以操纵执行步骤,从而直接干预聚类结果。该软件包非常适合大数据应用程序,因为重点是实现的聚类方法的计算效率。所使用的依赖项是Python Build-In-In套件或高度维护的稳定外部软件包。该软件是根据MIT许可证提供的。该包的源代码和文档可以在https://github.com/panagiotisanagnostou/hipart上找到。
translated by 谷歌翻译
当结果具有高维度时(例如基因表达,脉冲反应,人类的面部)和协方差相对有限,对传统因果推理和监督学习方法的估算是一项具有挑战性的任务。在这种情况下,要在反事实治疗下构建一个人的结果,至关重要的是要利用其在协变量之上观察到的事实结果中包含的个人信息。我们提出了一个深层的变异贝叶斯框架,该框架严格整合了在反事实处理下进行结果构建的两个主要信息来源:一个来源是嵌入高维事实结果中的个体特征;另一个来源是实际收到这种利益疗法的相似受试者(具有相同协变量的受试者)的响应分布。
translated by 谷歌翻译